iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 5
0
自我挑戰組

大數據系列 第 5

DAY5 大數據的處理過程-1

  • 分享至 

  • xImage
  •  

大數據的處理過程一般分為4個步驟。數據採集、數據導入和數據清理、數據統計和分析以及數據挖掘應用。
今天就先介紹數據採集的部分。

  1. 數據採集
    數據採集強調全體性及完整性而非抽樣調查,是很重要的步驟。
    在採集過程中的特點和挑戰是併發數高,比如大陸每年的春運購票,這種時候就需要大量的資料庫支撐,再依靠合理的分流和公有雲等架構方法來保證數據都準確有用。

常見的大數據的收集平台

(1) Apache Flume:使用JRuby構建,依賴Java運行環境。
(2) Fluentd: 使用C/JRuby開發,使用JSON文件來統一數據。
(3) Logstash:使用JRuby開發,所有運行依賴JVM。
(4) Splunk Forwarder:分為Search Head(數據的搜索和處理)、Indexer(數據的儲存和索引)和Forwarder(數據的收集、清洗、變形,並發送給Indexer)。

資料來源:https://kknews.cc/tech/l42k3g.html
https://kknews.cc/zh-tw/tech/rxj3jo.html


上一篇
DAY4 大數據的風險及挑戰
下一篇
DAY6 大數據的處理過程-2
系列文
大數據30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言